Gemma 4
https://gyazo.com/14bfbd89fe30b4163974727408679d93
Gemma-3nと同様に、Gemma 4は画像、テキスト、音声入力をサポートし、テキスト応答を生成します。テキストデコーダはGemmaモデルに基づいており、長いコンテキストウィンドウをサポートしています。画像インコーダーはGemma 3のものに似ていますが、2つの重要な改良点があります。アスペクト比の可変と、速度、メモリ、画質の最適なバランスを見つけるための画像トークン入力数を調整可能です。すべてのモデルは画像(またはビデオ)とテキスト入力に対応しており、小型のバリアント(E2BおよびE4B)は音声もサポートしています。
model zoo
ライセンス